Effect of Dataset Size and Train/Test Split Ratios in QSAR/QSPR Multiclass Classification

نویسندگان

چکیده

Applied datasets can vary from a few hundred to thousands of samples in typical quantitative structure-activity/property (QSAR/QSPR) relationships and classification. However, the size train/test split ratios greatly affect outcome models, thus classification performance itself. We compared several combinations dataset sizes with five different machine learning algorithms find differences or similarities select best parameter settings nonbinary (multiclass) It is also known that models are ranked differently according merit(s) used. Here, 25 parameters were calculated for each model, then factorial ANOVA was applied compare results. The results clearly show not just between but lesser extent ratios. XGBoost algorithm could outperform others, even multiclass modeling. reacted change sample set size; some them much more sensitive this factor than others. Moreover, significant be detected as well, exerting great effect on test validation our models.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Ratios and Effect Size

Responding to a related pair of measurements is often expressed as a single discrimination ratio. Authors have used various discrimination ratios; yet, little information exists to guide their choice. A second use of ratios is to correct for the influence of a nuisance variable on the measurement of interest. I examine 4 discrimination ratios using simulated data sets. Three ratios, of the form...

متن کامل

Feature Combination for Multiclass Object Classification with Clustered Dataset

In multiclass object classification, a key element is to design a robust identification of relevant class specification in presence of intra-class variations. However, this is a difficult problem due to high variability of visual appearance within each class. One possible approach is to adaptively combine a set of diverse and complementary features-such as features based on color, shape-in orde...

متن کامل

the clustering and classification data mining techniques in insurance fraud detection:the case of iranian car insurance

با توجه به گسترش روز افزون تقلب در حوزه بیمه به خصوص در بخش بیمه اتومبیل و تبعات منفی آن برای شرکت های بیمه، به کارگیری روش های مناسب و کارآمد به منظور شناسایی و کشف تقلب در این حوزه امری ضروری است. درک الگوی موجود در داده های مربوط به مطالبات گزارش شده گذشته می تواند در کشف واقعی یا غیرواقعی بودن ادعای خسارت، مفید باشد. یکی از متداول ترین و پرکاربردترین راه های کشف الگوی داده ها استفاده از ر...

data mining rules and classification methods in insurance: the case of collision insurance

assigning premium to the insurance contract in iran mostly has based on some old rules have been authorized by government, in such a situation predicting premium by analyzing database and it’s characteristics will be definitely such a big mistake. therefore the most beneficial information one can gathered from these data is the amount of loss happens during one contract to predicting insurance ...

15 صفحه اول

effect of bataine and sulphate supplement on wool and milk characteristics and lambs performance in naine ewes

تعداد 20 رأس میش نژاد نائینی 6+-24 ماهه، با میانگین وزن 2/3-+40 کیلوگرم، همراه با 20 رأس بره های آنها در قالب طرح کاملا تصادفی اثر بتائین و مکمل سولفات بر خصوصیات شیر و پشم و عملکرد بره ها بررسی شد. میش ها بطور تصادفی در چهار تیمار قرار گرفتند. تیمارها عبارت بودند از: 1-گروه شاهد 2-بتائین (05/0 درصد ماده خشک) 3-سولفات (24/0 سولفور درصد ماده خشک 4-بتائین هرماه با سولفات. جیره غذائی طبق nrc با مح...

15 صفحه اول

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Molecules

سال: 2021

ISSN: ['1420-3049']

DOI: https://doi.org/10.3390/molecules26041111